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摘要 相对 于 传统 的 离散 作答 数据 ， 作 答 时 间作 为 连续 数 
析 (change point analysis) 技 术 在 心理 和 教育 领域 是 一 个 比 
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据 ， 可 以 提供 更 多 信息 。 改 变 点 分 
较 新 的 技术 。 本 文 一 方面 对 改变 点 
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分 析 在 心理 测量 领域 的 应 用 进行 了 一 个 综合 的 总 结 和 分 析 ; 另 一 方面 , 将 基于 作答 数据 的 两 
种 改变 点 分 析 统 计量 推广 到 作答 时 间 数 据 , 将 改变 点 分 析 技术 应 用 到 测验 异常 作答 模式 : 加 
速 作答 speededness 的 检测 上 。 采用 两 种 检验 方法 : 似 然 比 检验 和 Wald 检验 , 分别 在 已 知 和 
未 知 项 目 参 数 的 条 件 下 ,实现 异 常 作答 模式 的 检测 。 结 果 表明 ， 所 采用 的 方法 对 于 加 速 作答 
行为 的 检测 具有 很 高 的 检验 力 ， 同 时 能 够 很 好 的 控制 I 类 错误 率 。 实 证 数据 分 析 进 一 步 表 明 


本 文中 所 使 用 的 方法 具有 应 用 价值 。 
关键 词 改变 点 分 析 法 ， 异 党 作答 行 为 ， 作 答 时 间 ， 加 速 
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作答 ,统计 过 程控 抽 


高 质量 的 测量 数据 是 对 考生 能 力 做 出 精确 评估 的 保障 。 然 而 实际 情况 中 会 存在 许多 导致 


系统 误差 的 因素 对 数据 的 质量 产生 影响 , 其 中 最 常见 的 因素 是 考生 的 异常 作答 行为 。 测验 过 
程 中 常见 的 异常 作答 行为 有 热身 效应 、 加 速 作 答 等 等 ( 骆 方 等 , 2020; 张 龙 飞 等 , 2020)。 考 


生出 现 异 党 作答 行为 后 , 其 作答 数据 与 其 正常 作 管 时 的 数据 有 着 显著 的 不 同 。 考生 出 现 异常 
作答 行为 时 产生 的 数据 称 为 异常 作答 数据 或 异常 作答 模式 。 测 验 数据 中 包含 异常 作答 数据 会 


降低 其 自身 及 整体 测验 数据 的 质量 ,从 而 对 后 续 的 分 析 结 果 产 生 一 系列 的 不 良 影响 ,例如 造 
成 模型 与 数据 的 不 拟 合 、 被 试 与 题目 参数 估计 的 偏差 (Stefan etal,. 2016)， 影 响 考试 的 信和 度 和 
效 度 (Guo et al,. 2009) 等 等 。 因此， 检测 测验 中 的 异 当 作答 数据 是 非常 重要 和 关键 的 ， 研究 者 
们 也 一 直 在 寻找 相关 的 解决 方法 (e.g., Bejar, 1985; Evans & Reilly, 1972; Shao et al,. 2016; 
Bradlow et al,. 1998; McLeod et al,.2003; Wise & Kong, 2005; Yu & Cheng, 2019, 2020). 


改变 点 分 析 法 (change point analysis, CPA; Page,1955; 


Shao et al., 2016; Sinharay, 2016) 


检测 过 程 数 据 中 存在 异常 的 常用 方法 ,多 用 于 判断 序列 数据 中 是 否 存在 分 布 形态 的 变化 , BH 


数据 中 是 否 存在 改变 点 。 它 的 基本 原理 是 : 在 一 组 序列 数 


居中 ,样本 按照 时 间 先 后 顺序 排列 ， 


在 不 同 的 时 间 点 ， 样 本 有 不 同 的 取 值 。 如 果 从 某 个 时 刻 开始 ， 形 成 时 间 序 列 的 样本 不 再 服从 


原来 的 分 布 或 者 样本 特征 ,比如 均值 或 方差 等 发 生 了 显著 的 变化 , 即 表明 数据 中 出 现 了 改变 
点 (Hawkins et al., 2003)， 改 变 点 的 出 现 说 明 事 物 发 生 了 质 的 变化 。 


近年 来 研究 者 们 将 CPA 引入 心理 与 教育 测量 领域 检测 测验 中 的 异常 作答 行为 或 异常 作 


答 模式 (Zhang, 2014; Shao,2016; Shao et al., 2016; Sinharay, 


2019, 2020)。Shao 等 (2016), Sinharay (2016)，Yu 等 人 (2019, 2020) 等 研究 显示 了 CPA 在 检测 


*” 收 稿 日 期 : 2021-08-25 


全 国教 育 科 学 规划 项 目 (BGA210060); 江西 省 社会 科学 基金 项 目 (21JY06); 国家 教育 部 考试 中 心 科 研 规划 课 


2016, 2017a, 2017b, 2017c; Yu etal., 


题 (GJK2021025); 江西 省 高 校 人 文 社 会 科学 项 目 (XL20202); 南昌 市 教育 大 数据 智能 技术 重点 实验 室 (2020- 
NCZDSY-012); 江西 省 教育 厅 科技 项 目 (GJJ191691, GJJ191128) 资 助 。 


通信 作者 : 喻 晓 锋 , E-mail: xyu6 @jxnu.edu.cn 


异常 作答 行为 或 异常 作答 模式 上 的 优势 。 在 测验 过 程 中 , 考生 在 每 道 题目 上 的 作答 形成 了 独 
特 的 序列 数据 。 一般 情况 下 考生 的 作答 数据 会 服从 某 种 分 布 , 例如 考生 的 作答 时 间 数 据 通常 
会 服从 于 对 数 正 态 分 布 。 当 考生 出 现 异 常 作答 行为 后 , 由 于 考生 的 作答 行为 不 同 于 正常 作答 
时 的 行为 ， 因 此 考生 的 作答 数据 也 会 发 生性 质 上 的 改变 。 异 常 作答 行为 发 生 的 位 置 (测验 中 
题目 的 编号 ) 即 为 数据 发 生变 化 的 点 。 
使 用 CPA 检测 测验 中 的 异常 作答 行为 或 者 异常 作答 模式 ， 可 以 从 两 种 数据 入 手 ， 一 种 
是 考生 的 作答 数据 Cesponse)， 另 一 种 是 作答 时 间 数 据 ， 即 考生 作答 每 道 题 所 用 的 时 间 
(response time)。 作 答 时 间 数 据 是 一 种 连续 数据 ， 同 时 包含 了 考生 能 力 信 息 和 题目 信息 
(Marianti et al.2014)， 对 于 提高 考生 能 力 估计 的 精度 与 优化 测验 设计 有 很 大 的 帮助 如 今 随 
着 新 技术 的 发 展 ， 计 算 机 测验 与 在 线 评估 越 来 越 多 ， 作 答 时 间 数 据 的 获取 也 变 得 更 加 便利 ， 
逐渐 获得 学 者 们 的 关注 。 例 如 van der Linden 和 vanKrimpen-Stoop (2003) 使 用 作答 时 间 数 据 
检测 考生 预知 试题 以 及 加 速 作 答 ; van der Linden 和 Guo (2008)，Pan 和 Wollack (2021) 等 使 
作答 时 间 数 据 检测 测验 中 考生 预知 试题 的 情况 等 等 ,还 有 研究 者 基于 不 同 的 应 用 场景 构建 
芷 答 时 间 模 型 ,结果 显示 引入 作答 时 间 数 据 有 助 于 模型 的 参数 估计 等 , 拓宽 了 作答 时 间 数 据 
的 使 用 范围 (Wang & Xu, 2015; WE, 罗 照 盛 , 2019; 詹 沛 达 , 2019; fS T3 等 , 2020). 

以 往 基 于 CPA 检测 测验 中 异常 作答 行为 的 研究 多 是 基于 作答 数据 ， 如 今 作答 时 间 数 据 
的 优势 已 经 凸显 ,在 数据 分 析 中 引入 或 结合 作答 时 间 数 据 是 非常 重要 的 发 展 趋势 。 另外， 由 
于 加 速 作答 是 众多 异常 作答 行为 中 最 常见 和 普遍 的 (Goegebeur et al,.2008)， 对 于 测验 数据 质 
量 有 非常 大 的 负面 影响 ， 受 到 很 多 研究 者 的 关注 (比如 Bolt et al,. 2002; Oshima, 1994; Suh, 
et al,.2012; Yu et al., 2020 等 )。 因 此 本 研究 拟 聚 焦 于 作答 时 间 数 据 ， 在 已 知 项 目 参数 和 
未 知 项 目 参数 条 件 下 ， 分 别 使 用 CPA 方法 检测 由 加 速 作答 行为 造成 的 异常 作答 模式 。 需 要 
注意 的 是 ，CPA 方法 本 质 上 是 检测 异常 数据 的 方法 ， 因 此 它 同 样 可 用 于 检测 由 其 他 异常 作 
答 行 为 如 题目 预知 ， 热 身 效应 等 造成 的 异常 作答 模式 。 下 面 首先 介绍 CPA BOR. 


2 改变 点 分 析 CPA 技术 


CPA 广泛 应 用 于 生物 学 、 统 计 学 和 经 济 学 领域 ， 昌 然 已 有 学 者 将 它 引 入 教育 与 心理 测 
量 领 域 ,但 它 还 没有 得 到 很 好 的 开发 。 基 于 CPA 检测 异常 作答 行为 的 已 有 研究 主要 有 :Zhang 
(2014), Shao 等 (2016), Shao(2016), Sinharay (2016, 2017a, 2017b, 2017c), Yu 等 (2019, 2020)。 
其 中 ，Zhang (2014) 关 注 的 是 考生 预知 试题 信息 造成 的 试题 泄露 现象 ， 并 提出 了 一 种 实时 序 
列 试题 监控 方法 。 

Shao 等 (2016) 基 于 CPA 使 用 似 然 比 检验 探测 加 速 作答 行为 ， 这 种 方法 不 仅 可 以 将 考生 
分 为 加 速 组 和 非 加 速 组 , 还 能 比较 准确 地 找到 考生 开始 出 现 异常 作答 行为 的 位 置 。 异常 行为 
发 生 的 位 置 使 得 测验 管理 人 员 通 过 去 除 可 疑 的 加 速 反应 来 提高 能 力 估 计 的 精确 性 , 并 且 为 实 
际 测验 中 设置 合适 的 测验 长 度 提 供 参考 。Shao 等 (2016) 使 用 检验 统计 量 为 

aysan =r, (1) 

ERAS ZA RR, DORLI 3] d zs A E HL Jn E ME A AT A TE E E IY K 

数 似 然 值 。 当 给 定 考 生 i 的 得 分 数据 ， 可 以 使 用 MLE (Baker & Kim, 2004) 51 3X; 


估计 出 考生 的 能 力 0;，i 步 得 zj, mi =i +t, 让 和 + 分 别 表 示 基 于 j 为 
分 界 点 的 两 个 子 测验 (第 1 个子 测 验 包 含 题目 1，…， 题 目 j; 第 2 个 子 测验 包含 题 


目 j 十 1，…， 题 目 n) 所 对 应 的 似 然 函数 。Ali 达 到 最 大 值 的 位 置 即 考生 开始 加 速 作 
答 的 位 置 ， 它 的 零 分 布 与 临界 值 可 以 通过 置换 分 布 (Shao et al., 2016)、 经 验 分 布 
(Yu et al., 2020) 或 理论 近似 分 布 (Sinharay, 2016) 获 得 。 

Sinharay(2016) 使 用 三 种 CPA 统计 量 考察 CAT 中 的 被 试 拟 合 , 并 计算 三 种 统计 量 的 I 类 
普 误 率 和 检验 力 。 研 究 中 使 用 近似 零 分 布 检验 CPA 统计 量 。 研究 结果 显示 CPA 统计 量 在 检 
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测 包含 异常 作答 行为 的 考生 方面 具有 良好 的 性 能 。 下 面 是 三 个 CPA 统计 量 : 


Gy -Ba)) 
Wwe MEAE (2) 
hj(8o) tj (40) 

Lj = —2{L(8o; Ya, Yo, .., Yn) — L(0,5 Ya Yo, --- Yj) — L(025 Yaa Yor Ya), (3) 

^ 2 A 2 
ae (Vôo; Yas Yos vj) (VO Yi Yaz, ¥n)) (4 

i hj (80) In; (80) l 

由 于 变化 点 未 知 ， 三 个 检验 统计 量 如 下 : 

Vas = RI W. (5) 
aw mec m (6) 
Sra E Se (7) 


I4; (05) 1p; ÂNE 240 = 80 时， 分 别 基 于 试题 1 至 试题 和 试题 j+1 至 试题 n 估 
ith Fisher (3 Ei. V(Og Y, Yo, .., Yee 24 0 = Ooi Y, Yo, ..., Yt BAW SA AY — Er 5$ ER 
数 。 此 外 ，Sinharay(2016) 还 使 用 ROC (receiver operating characteristics) 曲线 比较 CUSUM 
程序 和 CPA 方法 的 表现 。 研 究 结果 表明 , 在 很 多 条 件 下 基于 CPA 的 方法 比 基 于 CUSUM 的 
方法 更 占 优 势 。 

Sinharay (2017a) 提出 了 基于 似 然 比 检验 (L) 和 拉 格 朗 日 乘 数 检验 (也 称 得 分 检验 score 
test) 的 统计 量 (R) 来 探测 考生 预知 试题 信息 的 异常 行为 .Sinharay (2017a) 将 测验 分 为 两 部 分 ， 
分 别 为 :和 5， 正常 考生 (没有 从 预知 试题 信息 中 获 益 ) 基于 s 和 5 的 得 分 的 后 验 分 布 以 及 能 力 
估计 值 是 非常 接近 的 , 而 当 考 生 预 知 某 些 试题 的 信息 时 , 这 两 部 分 的 后 验 分 布 以 及 能 力 估计 
值 应 该 有 具有 显著 差异 。 


L = 2[L(6,;y;,j € s) + L(Os ypj es)—L(00;y,j = 1,2,...,n)], (8) 
g Gorm ses), Myj € S) 
IQ 1s(00) 


与 上 一 研究 类 似 ，6,，6;，600 分 别 为 基于 s，s 和 所 用 试题 (j = 1,2,.…,n) 的 能 力 估计 值 ， 
yi 表示 得 分 ， L(G,; yj,j € s) 为 s 部 分 试题 得 分 的 对 数 似 然 ，V(@0;yj,j Es) 为 对 数 似 然 的 一 
阶 导 函 数 (Baker et al., 2004), Is (600) 表示 能 力 为 O6 时 s 部 分 的 题目 信息 量 之 和 。 其 余 类 似 。 
研究 表明 ， 这 两 种 统计 量 可 用 于 适应 性 与 非 适应 性 测验 ， 二 级 和 多 级 计 分 题目 ， 且 服从 渐 近 
的 标准 正 态 分 布 ， 这 对 实际 应 用 非常 有 利 。 男 外 研究 结果 显示 ， 新 的 统计 量具 有 可 控 的 I 类 
普 误 率 和 相对 较 高 的 检验 力 。 

Sinharay (2017b) 提 供 了 CPA 检测 的 一 般 过 程 ， 对 如 何 选择 合适 的 统计 量 、 相 应 临界 值 
的 获取 方法 和 一 些 有 关 问 题 进行 了 讨论 ， 提 出 了 解决 方法 ， 并 基于 Rasch 模型 ， 通 过 三 个 真 
实数 据 的 例子 说 明了 如 何在 心理 测量 问题 中 应 用 CPA 检测 做 出 重要 的 推论 。 
基于 三 参数 Logistic 模型 (3PLM; Birnbaum,1968), Sinharay (2017c) 比 较 了 两 种 CPA Zt 
计量 ,一 种 是 基于 似 然 比 检验 的 统计 量 Ls， 另 一 种 是 后 验 偏 移 统 计量 PSS (Belov, 2016)， 在 
检测 考生 存在 预知 试题 信息 行为 上 的 表现 。 这 两 个 统计 量 的 检测 原理 与 Sinharay (2017a) 类 
似 ， 当 考生 从 预知 试题 中 获 益 时 ， 他 /她 在 测验 c 部 分 (包含 泄露 试题 的 部 分 ) 上 的 能 力 估计 值 
或 后 验 分 布 与 测验 u 部 分 (不 包含 泄露 试题 的 部 分 ) 上 的 能 力 估 计 值 或 后 验 分 布 距离 较 远 ， 
E c 部 分 能 力 值 高 于 部 分 或 者 c 部 分 后 验 分 布 在 u 部 分 后 验 分 布 的 右边 .zs 的 绝对 值 等 于 
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L(Sinharay, 2017a) 的 平方 根 。 后 验 偏 移 统计 量 量化 了 两 种 后 验 分 布 的 距离 。 结 果 显 示 两 种 统 
计量 的 一 类 错误 率 和 探测 率 非 常 接近 。 

Yu 等 (2019) 提 出 了 一 种 基于 加 权 残 差 的 CPA 统计 量 ， 并 与 其 他 三 种 CPA 统计 量 
(Sinharay,2016) 比 较 了 在 探测 后 程 随机 作答 (back random responding, BRR) 行 为 上 的 表现 。 结 
RER, 基于 加 权 残 差 的 CPA 统计 量 可 以 在 20 个 题目 及 以 上 的 测验 中 较 准 确 的 检测 出 BRR 。 
和 其 他 三 种 统计 量 相 比 ，I 类 错误 率 都 能 很 好 的 控制 ， 检 验 力 高 出 17% - 42%。 实 证 研究 的 
结果 也 显示 了 基于 加 权 残 差 的 CPA 统计 量 在 检测 BRR 上 的 实用 性 。Yu 等 (2020) 比 较 了 12 
种 CUSUM 统计 量 与 3 种 CPA 统计 量 在 检测 加 速 作答 行为 上 的 性 能 。 为 检测 这 两 类 方法 的 
稳健 性 与 灵活 性 , 研究 中 考虑 了 两 种 不 同 的 加 速 机 制 即 速度 渐变 与 速度 突变 , 即 能 力 渐变 模 
型 (graduate change model, GCM) 和 能 力 突 变 的 混合 模型 (hybrid model, HM) 来 模拟 。 除 测验 长 
度 外 ， 还 考虑 了 加 速 行为 的 流行 程度 (有 加 速 行为 的 考生 在 考生 总 体 中 所 占 的 比例 )， 严 重 程 
度 (出 现 加 速 行为 的 考生 在 测验 中 受 加 速 行为 影响 的 题目 比例 ) 等 变量 。 

为 了 对 基于 CPA 的 方法 在 心理 测量 中 的 应 用 有 一 个 更 具体 的 了 解 ， 我 们 提供 了 如 下 的 
表 1.。 表 1 中 详细 列 出 了 有 关 的 研究 ,并 且 从 不 同 的 角度 对 这 些 研究 进行 了 一 个 综合 的 总 结 ， 
从 其 中 我 们 可 以 得 出 很 多 有 用 的 信息 。 例 如 ， 从 各 研究 基于 的 数据 来 源 看 ， 所 有 研究 都 是 基 
于 作答 数据 ;从 临界 值 的 获取 方式 看 ， 只 有 两 项 研究 特殊 ， 分 别 是 Shao 等 (2016) 是 基于 置 
换 分 布 获得 临界 值 和 Sinharay (2016) 是 采用 近似 临界 值 ， 其 余 使 用 的 都 是 经 验 临界 值 。 采 用 
经 验 临界 值 的 好 处 是 它 实现 简单 ,适用 于 所 有 的 统计 量 , 不 像 近 似 临界 值 只 适用 于 部 分 统计 
量 ， 也 不 像 使 用 置换 分 布 那样 需要 相当 长 的 时 间 才 能 获得 。 

表 1 中 虽然 没有 基于 作答 时 间 数 据 采 用 CPA 方法 进行 检测 的 研究 ， 但 已 有 类 似 研究 基 
于 作答 时 间 数 据 检测 测验 中 的 异常 项 目 ， 例 如 Choe 等 (2018) 使 用 序列 分 析 方 法 分 别 基 于 作 
答 数 据 、 作 答 时 间 数 据 以 及 结合 两 种 数据 对 泄露 试题 进行 检测 。 该 研究 结果 证 明了 在 相同 的 
I 类 错误 率 情况 下 ， 方 法 的 检验 力 呈 现 : (D) 仅 基于 作答 时 间 数 据 的 检验 力 要 比 仅 使 用 作答 数 
据 的 检验 力 高 得 多 ; (2) 结 合 两 种 数据 对 泄露 试题 进行 检测 的 方法 有 两 种 , 其 中 一 种 方法 的 检 
验 力 略 大 于 仅 基 于 作答 时 间 数 据 的 检验 力 , 第 二 种 方法 的 检验 力 则 远 远 小 于 仅 基 于 作答 时 间 
数据 。 并 且 基 于 作答 时 间 数 据 进行 检测 的 探测 点 的 识别 延迟 是 Choe 等 (2018) 所 有 方法 中 最 
小 的 。 从 Choe 等 (2018) 的 研究 可 以 发 现 相 比 于 作答 数据 ， 作 答 时 间 数 据 的 确 可 以 提供 更 多 
的 测验 信息 ， 从 而 使 检验 力 有 实质 性 的 提高 。 
— 如 今 作答 时 间 数 据 的 获取 已 经 越 来 越 容易 , 并 且 作 答 时 间 数 据 在 检测 考生 的 异常 作答 行 
O 为 上 比 作答 得 分 数据 拥有 先天 的 优势 。 比 如 当 某 位 考生 的 作答 模式 为 [1111101010] 时 仅 从 分 
数 上 不 容易 判断 考生 是 否 出 现 了 加 速 作答 ， 但 是 结合 作答 时 间 数 据 [57, 48, 51, 36, 42, 23, 18, 
13, 7, 6] 则 更 容易 判断 ， 因 为 加 速 作答 的 直接 体现 就 是 在 作答 时 间 上 。 因 此 基于 作答 时 间 数 
据 检测 异常 作答 行为 是 具有 非常 好 的 研究 前 景 的 。 
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3 基于 CPA 的 统计 量 


AR 1 中 可 知 ， 常 用 的 CPA 统计 量 大 致 有 四 种 ， 分 别 是 基于 似 然 比 检验 的 统计 量 
(Vl Lmax Ls)» HBF Wald 检验 的 统计 量 (Wirar,W 中 )， 基 于 得 分 检验 的 统计 量 
(Rs,Smax) 和 基于 残 差 检验 的 统计 量 (Rmax)。 这 几 种 统计 量 都 是 通过 检验 是 否 能 拒绝 
虚无 假设 (考生 的 潜在 特质 没有 发 生 显 著 的 变化 或 考生 的 作答 数据 没有 异 Meum 
来 判断 考生 是 否 存在 异常 作答 行为 。 本 研究 是 基于 作答 时 间 数 据 检 测 异 常 作答 
这 里 选用 基于 似 然 比 检验 和 Wald 检验 的 统计 量 。 

本 研究 关注 的 异常 作答 行为 是 加 速 作 答 行 为 ， 因 此 在 研究 中 使 用 单 侧 检 验 。 
考生 出 现 加速 作 答 行为 后 ， 考 生 的 答题 速度 会 增 大 。 当 变 点 上 已 知 时 ， 两 个 统计 量 的 虚无 
假设 为 考生 [在 前 K 个 古 目 上 的 速度 参数 等 于 后 0 内 个 古 目 上 的 速度 参数 ， 即 ix- = Gs. 
备 择 假设 为 考生 ;在 前 K 个 题目 上 的 速度 参数 小 于 后 (1 一 有) 个 题目 上 的 速度 参数 ， 即 i._ < 
名 kf。 下 面 对 两 种 统计 量 基 于 作答 时 间 数 据 时 的 形式 进行 介绍 。 

3.1 似 然 比 检验 

van der Linden(2006) 提 出 的 对 数 正 态 模型 是 应 用 最 为 广泛 的 作答 时 间 模 型 ， 在 很 多 实证 
研究 中 ， 它 对 作答 时 间 数 据 的 拟 合 都 较 好 。 本 研究 也 使 用 该 模型 ， 假 设 考生 ;在 题目 上 的 作 
答 时 间 tjj 服 从 以 下 密度 函数 : 


ftij Tuaj bj) = 


M 


is 


aj 1 : 
ton f- z lenti; — (8; = 12) h (10) 


相当 于 
In(t;j) = Bj — Ti + €ij,€;~N(0, aj). ae 
其 中 Bi € (一 00,%) 为 时 间 强 度 参数 ，P; 值 越 大 表明 作答 题目 需要 花费 的 时 间 越 长 ; 
(一 00, 00) 是 考生 i 的 速度 参数 ， 通 常 假定 t 服 从 正 态 分 布 ，aj 为 时 间 区 分 度 参 数 ， 其 作 | gain 
于 题目 反应 模型 中 的 区 分 度 参 数 。 
基于 作答 时 间 模 型 ( 即 公 式 10) 可 得 考生 i 的 作答 时 间 数 据 ti 的 似 然 函 数 为 : 


L(ti;ti) = [| amet : [a,(Int;; — (B; — at (12) 
其 中 ti = (ty ty... th) EF EEA A ERE RIS. EL (ry; t) TILL PS 2C 
为 
l(t, ti) = InL(r; ti) = n m - 2 [aj(Int;; — (Bj — 1)]2). (13) 
似 然 比 检验 的 公式 与 Shao 等 (2016) 类 似 : 
AL? = 2 (n^ - 1f), (14) 


Io = 1(fio;ti) 是 通过 使 用 考生 在 所 有 题目 上 的 作答 时 间 数 据 估计 出 的 速度 参 
数 名 0 计算 得 到 的 对 数 似 然 。 假 设 考生 的 速度 参数 在 题目 K 之 后 立即 发 生 了 突变 ， 
给 定 改 变 点 Kk 时， 加 速 时 的 对 数 似 然 为 : 

19 = le + Iu tig), (15) 

tu TE EFS E ATE RS BEI E RO VE EINST TD BAR (ey = otioso tao fe UH 

的 速度 参数 ,名 局 是 使 用 考生 ;在 第 K +1 至 /个 题目 作答 时 间 数 据 估 计 出 的 速度 参数 。 

由 于 在 实际 情况 中 ,改变 点 的 位 置 是 未 知 的 ,因此 将 检验 统计 量 设 为 所 有 可 能 的 
改变 点 位 置 上 的 Al, 中 的 最 大 值 : 


"m (k) 
Almaxi NUNT Al". (16) 


当 Alnaxi 在 某 个 置信 水 平 上 超出 可 接受 的 范围 时 拒绝 虚无 假设 ， 说 明 考 生 ; 的 
作答 时 间 数 据 中 出 现 了 改变 点 。 
32 Wald 检验 

单 侧 Wald 检验 统计 量 的 公式 如 下 ; 

(tix — tines)” 
1 1 

— + pa 
Iy-(fio) Ir+(ĉio) 
H P n (fis) Ica (fi) 2 Bl E HEF 25 "E UE kA H EM ag — KY REEL EE 
答 时 间 数 据 估 计 的 Fisher 信息 量 。 当 kk 未 知 时 ,检验 统计 量 为 


max,i 一 k-1 MAE a) w, . (18) 


当 Wnaxi 在 某 个 置信 水 平 上 超出 了 可 接受 的 范围 时 拒绝 虚无 假设 ， 说 明 考 生 : 
的 作答 时 间 数 据 中 出 现 了 改变 点 。 

本 研究 将 4 中 和 Wi 中 达到 最 大 值 的 下 一 个 项 目 作为 加 速 点 的 估计 值 ， 即 考生 
从 那个 项 目 开始 表现 出 加 速 作答 行为 。 
3.3 CPA 统计 量 临界 值 的 获取 

和 基于 作答 数据 的 似 然 比 检验 类 似 ， 基 于 作答 时 间 数 据 的 Aliaxi 也 没有 形成 一 个 封 
闭 的 分 布 形态 。 参 考 表 1 中 的 信息 ， 统 计量 临界 值 可 通过 置换 分 布 、 经 验 临 界 值 
和 近似 临界 值 获得 。 由 于 置换 分 布 方法 的 计算 量 非常 大 , 需要 很 长 的 时 间 获 得 临 
界 值 ， 而 近似 临界 值 比较 适合 改变 点 出 现在 测验 中 间 位 置 (比如 中 间 70% 的 位 置 ) 
的 情况 (Sinharay, 2016)。 在 实际 情况 中 加 速 作答 更 容易 出 现在 测验 中 晚期 阶段 ， 
因为 考生 在 测验 的 中 晚期 阶段 更 容易 感受 到 时 间 的 压力 。 因 此 本 研究 采用 经 验 临 
界 值 


jul 


w, = (17) 


ig 


= 


~. 


*^k CUBE W, CO CA AREA 1 的 卡 方 分 布 ， 当 Kk 以 及 Wi 中 未 知 时 ，Winaxi 也 不 
能 形成 一 个 封闭 的 分 布 形态 。Sinharay(2016) 指 出 ，Winaxi 的 渐进 零 分 布 和 似 然 比 统 
计量 的 渐进 零 分 布 是 相同 的 。 这 里 Wald 检验 统计 量 的 临界 值 也 采用 经 验 临 界 值 。 具 体 过 程 
如 下 。 

参考 Worsley(1979)， 通 过 公式 11， 在 测验 长 度 为 40,60,80 的 条 件 下 随机 生 
成 10000 个 正常 的 作答 时 间 模 式 。 基 于 前 面 介绍 的 似 然 比 统计 量 和 Wald 统计 量 
的 计算 公式 ， 分 别 得 到 Alnaxi 和 Inaxi 的 10000 个 值 ; 将 它们 按 从 大 到 小 排序 ， 得 
到 它们 第 500、 第 100 和 第 10 个 最 大 值 coos，cooi 和 coooi， 分 别 近 似 对 应 检验 水 
平 为 0.05，0.01，0.001 时 的 临界 值 。 每 种 实验 条 件 重复 100 次 ， 取 平均 的 coos， 
cooi 和 coooi 值 作为 后 面 实验 中 用 到 的 经 验 临 界 值 。 


4 基于 加 速 作答 行为 的 作答 时 间 模 型 


加 速 作 答 行 为 通常 发 生 在 有 时 间 限 制 的 考试 中 。 当 考试 临近 结束 时 , 未 完成 作答 的 考生 
由 于 受到 时 间 因 素 的 影响 会 倾向 于 提高 自己 的 答题 速度 ， 出 现 加 速 作 答 。 考 生出 现 加 速 作答 
行为 时 ， 由 于 答题 速度 的 增加 ， 其 作答 时 间 会 少 于 正常 的 答题 时 间 。 

为 模拟 考生 加 速 作答 行为 下 的 作答 时 间 ， 以 往 的 研究 提出 了 两 种 方法 , 第 一 种 是 将 考生 
在 加 速 作答 行为 下 的 作答 时 间 设 置 为 固定 的 几 个 水 平 ， 比 如 10s, 20s, 30s(van der 
Linden et al., 2008); 第 三 种 是 在 对 数 正 态 作答 时 间 模 型 的 参数 t; 上 增加 一 个 正 数 
LL， 表示 加 速 作答 对 考生 答题 速度 产生 的 影响 。 在 van der Linden 等 (2003) 的 研究 
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中 ，L 被 设置 为 0.375 和 0.750。 这 两 种 方式 都 将 加 速 作答 设置 成 了 固定 效应 ， 即 所 有 加 
速 作答 的 考生 都 会 出 现 相同 的 作答 时 间或 受到 相同 大 小 的 影响 ， 这 其 实 不 太 符 合 实际 情况 。 

Yu 等 (2019) 曾 回顾 了 加 速 作答 考生 可 能 存在 的 两 种 潜在 加 速 作答 机 制 ， 即 作答 速度 突 
变 和 作答 速度 逐渐 改变 , 并 使 用 两 种 模型 来 表示 这 两 种 作答 机 制 , 分 别 是 混合 模型 (the hybrid 
model, HM) 和 逐渐 变化 模型 (the graduate change model, GCM)。 一 方面 ， 关 于 加 速 作答 行为 对 
于 考生 做 题 的 影响 机 制 ，HM 假设 考生 出 现 加 速 作答 时 的 作答 速度 会 发 生 突 变 ， 而 GCM iA 
为 考生 在 加 速 点 之 后 的 题目 上 的 答对 概率 会 逐渐 下 降 ， 另 一 方面 ， 有 加 速 作答 行为 的 考生 ， 
他 们 出 现 加 速 作答 行为 的 位 置 是 随机 变量 ， 即 加 速 点 各 不 相同 。 
在 本 研究 中 , 我 们 拟 采 用 更 可 能 出 现 的 作答 速度 “逐渐 改变 ”的 方式 来 模拟 数据 。 Wollack 
和 Cohen (2004) 构 建 了 基于 作答 数据 的 加 速 模型 ， 该 模型 是 模拟 加 速 作答 考生 在 题目 上 的 正 
确 概 率 发 生 “ 逐 渐 改 变 ( 下 降 )”"， 并 且 每 位 加 速 作答 考生 有 其 独特 的 加 速 模 式 。Goegebeur 等 
人 (2008) 进 一 步 考 察 了 该 模型 的 参数 估计 。 基 于 概率 “逐渐 改变 ”的 三 参数 模型 为 : 

. exp|aj(8; — b;)] ; j fi 
Pj-ct(1-g) E TPO = bj] x min (1, |: — G — 2 (19) 

Hob, cond ea, DEDUCI we a SH PLM, m (0 < nt s ORRE ERE 
加 速 作答 的 位 置 ， 比 如 : m — 0.8 表 示 考 生 i 在 最 后 20% 的 题目 上 出 现 加 速 作答 。 
加 入 速度 调节 参数 A 调节 加 速 作答 行为 中 正确 作答 概率 下 降 的 快慢 ， 这 个 模型 已 
经 在 很 多 研究 中 用 来 模拟 加 速 作答 数据 (Shao et al.,2016; Suh et al., 2012). 

类 似 地 , 本 研究 中 构建 基于 对 数 正 态 作答 时 间 模 型 的 作答 时 间 逐 渐 下 降 模 型 ， 
形式 如 下 : 


: Ài 
In( tij) = (B; — Ti T eij) x min (1, | = G = 2 ,&jN(0, a; ?) (20) 
这 个 公式 中 的 页 和 大 参 数 与 上 面 公式 中 的 参数 含义 相同 。 当 测验 没有 进行 到 
n Bi 28 zs AY Bt BE INS ORE INT mno we mi [1 - (-m)]m t& & X F 1, min (1, |1 - (:- 
mi)}) - 1. 这 说 明 考生 的 作答 时 间 依 旧 使 用 对 数 正 态 作答 时 间 模 型 模拟 。 当 测验 


进行 到 所 表示 的 阶段 时 ， 即 4> n 则 min (i [1- (t-m) a 1s 此 时 ma 的 
值 将 小 于 其 正常 的 作答 时 间 ， 表 示 考 生 在 所 表示 的 阶段 出现 了 异常 的 加 速 作 管 
行为 。 

5 模拟 研究 


为 了 完整 的 阐述 CPA 方法 的 使 用 过 程 以 及 评价 CPA 方法 在 作答 时 间 数 据 上 检测 
异常 作答 模式 和 加 速 作答 行为 上 的 表现 ， 我 们 拟 进 行 模拟 研究 和 实证 数据 分 析 。 
通常 来 说 ， 实 证 数据 中 的 项 目 参 数 有 可 能 是 已 知 的 (比如 自 适 应 测验 系统 )， 也 有 
可 能 是 未 知 的 。 因此, 我 们 考虑 在 已 知 项 目 和 未 知 项 目 参 数 的 条 件 下 分 别 展开 模 
拟 研究 。 对 于 已 知 项 目 参 数 ， 实 验 中 只 需要 估计 考生 的 速度 参数 ， 采 用 EAP f 
法 (Shao, 2016); 对 于 未 知 项 目 参 数 , 项 目 参 数 基于 全 体 考 生 的 数据 , 采用 MCMC 
算法 (Fox et al., 2021) 估 计 得 到 。 

5.1 模拟 研究 设计 

模拟 研究 中 考生 的 数量 固定 为 1000， 考 虑 三 种 测验 长 度 分 别 40，60 和 80, 
它们 的 测验 总 时 间 分 别 设置 为 60，90 和 120 分 钟 (Shao, 2016)。 考 生 中 出 现 加 
速 行为 的 比例 为 10%, 20% 和 30%, 分 别 表示 加 速 作 答 行 为 的 三 种 流行 程度 ( 低 、 
Alin). ME Ah Bn M 4 种 分 布 中 生成 ,详细 信息 呈现 在 数据 生成 部 分 。 当 
考试 结束 ,考生 还 未 完成 所 有 的 试题 时 测验 直接 终止 , 没有 做 完 的 题目 的 作答 时 
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间 设 置 为 0， 考 生 直接 被 标记 为 具有 加 速 行为 。 模 拟 研究 共 3x3x4x2= 72 种 条 
fb, ， 每 种 条 件 重复 50 次 。 模 拟 研究 使 用 R 程序 完成 。 
表 2 模拟 条 件 


因素 水 平 
测验 长 度 40, 60, 80 
加 速 作答 考生 的 比例 10%,20%,30% 
改变 点 的 位 置 参 数 ; Median (0.6,0.7)xo?(0.04,0.001) 
项 目 参数 BA, RA 
5.2 数据 的 生成 


参考 Patton(2015) 将 题目 区 分 度 参数 a 和 难度 参数 b 设 置 为 a ~ InN(0,0.5),b ~ N(0,1). 
正常 考生 与 具有 加 速 行为 考生 的 作答 时 间 由 公式 (11) 与 (20) 生 成 ， 其 中 时 间 区 分 
度 参数 qj 服从 均匀 分 布 U(1.75,3.25); 时 间 强 度 参 数 B; 和 速度 参数 t; 参 考 Patton(2015) 的 设置 : 
Bj 均值 为 4, 标准 差 为 1/3,Bj; 与 题目 区 分 度 参 数 a 和 难度 参数 b 的 相关 系数 设置 为 0.3,0.5; v; ~ 
N(0,.25)。 对 于 具有 加 速 作答 行为 的 考生 ,我们 采用 与 Suh 等 (2012) 相 同 的 做 法 来 
^E px x& B£ Vi S, BI A;— log N(3.912, 1). MÈ AM Eg; TR Shao 等 (2016) 的 处 理 ， 
即 假定 mi 服从 beta 分 布 ， 并且 中 值 为 0.6 和 0.7, 7; 2$ 7302, = 0.00181 0.04, 对 应 的 
四 种 beta 分 布 具体 形式 为 :beta(143.367, 95.689), beta(2.970, 2.091), beta(146.345, 
62.910) 和 beta(3.033, 1.490)。 这 样 一 来 ， 改 变 点 的 分 布 如 下 图 1 所 示 。 需 要 注意 
的 是 nh 是 以 百分比 来 反应 加 速 作答 的 位 置 。 对 于 测验 长 度 为 40 HUJUS. m; = 0.6 
表示 考生 将 从 第 25 题 开始 加 速 作答 。 图 1 2684 2502 = 0.001， 生 成 的 加 速 作答 起 
点 都 接近 于 中 值 ， 而 当 = 0.04 时 ， 加 速 作答 起 点 会 更 加 分 散 ， 可 能 出 现在 测验 
的 任何 地 方 ， 甚 至 可 能 出 现在 接近 测验 结束 的 地 方 。 在 我 们 的 研究 中 ， 考虑 将 接 
近 测 验 中 后 期 的 地 方 作为 加 速 作 答 的 起 点 , 主要 原因 有 两 个 方面 : 首先 是 加 速 作 
答 在 通常 情况 下 更 容易 出 现在 测验 中 后 期 ; 其 次 本 研究 想 要 考察 当 改变 点 不 是 在 
接近 测验 中 间 的 位 置 时 ， 近 似 临 界 值 是 否 可 以 直接 应 用 (Sinharay, 2016). 


u» 


到 


E = 
E: tex 
bL: i 
wo » 
eo o 
00 02 04 06 08 10 00 02 04 06 08 10 
加 速 位 置 加 速 位 置 
En 
o 
其 
iig 
u» 
o 
00 02 04 06 08 10 00 02 04 06 08 10 
加 速 位 置 加 速 位 置 


图 1 改变 点 的 分 布 


两 种 统计 量 的 临界 值 首先 通过 蒙特 卡 洛 模拟 生成 ,需要 注意 的 是 , 在 已 知 项 
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目 参 数 的 实验 条 件 ， 所 有 的 计算 结果 都 是 基于 项 目 参 数 真 值得 到 ; 在 未 知 项 目 参 
数 时 的 实验 条 件 ， 所 有 的 计算 结果 都 是 基于 项 目 参 数 的 估计 值得 到 。 随 后 与 
Sinharay (2016) 中 采用 的 近似 临界 值 进 行 比 较 ， 选 取 合 适 的 临界 值 用 于 加 速 作 答 
行为 的 检验 o 
5.3 异常 作答 数据 的 检测 过 程 

基于 前 文 对 CPA 统计 量 的 分 析 ， 研 究 拟 使 用 似 然 比 统计 量 与 Wald 统计 量 依 
次 对 每 位 考生 的 作答 时 间 数 据 进行 检测 。 大致 过 程 如 下 : (1) 计 算 每 位 考生 在 每 道 
题 上 的 似 然 比值 ,选取 最 大 的 似 然 比值 作为 似 然 比 统计 量 的 值 ，Wald 检验 类 似 ; 
(2) 将 两 种 方法 的 统计 量 与 各 自 对 应 条 件 下 的 临界 值 进行 比较 ， 当 统计 量 值 超出 
临界 值 时 , 将 考生 的 作答 数据 标记 为 异常 作答 数据 ; (3) 当 考生 的 作答 数据 标记 为 
异常 时 ， 统 计 考 生 异 常 作答 行 为 出 现 的 位 置 ,， (4) 用 预定 的 评价 指标 对 CPA 方法 
的 检测 效果 进行 评价 。 
5.4 评价 指标 

使 用 I 类 错误 率 和 检验 力 评价 CPA 方法 的 性 能 ，I 类 错误 率 和 检验 力 的 最 终 
结果 为 每 种 条 件 下 的 均值 。 并 计算 在 给 定时 间 内 未 完成 测验 的 学 生 比 例 (%NF) 以 
及 检测 到 的 改变 点 位 置 与 真实 改变 点 位 置 之 间 绝对 的 延迟 (absolute detection lag, 
ADL) 指 标的 均值 和 标准 差 。I 类 错误 率 、 检 验 力 和 AL 的 计算 公式 分 别 如 下 
"TS ”错误 标记 加 速 考生 的 数量 
LAG RM = Hee (21) 


正确 标记 加 速 考 生 的 数量 
d Jj = AA 22 
GR = REE E BOR (22) 


ADL (23) 


KH, Bp iB CPA 方法 探查 到 的 改变 点 的 位 置 和 真实 的 改变 点 
位 置 ，N 是 考生 人 数 。 

计算 在 给 定时 间 内 未 完成 测验 的 学 生 比 例 (%NF) 是 为 了 考察 测验 时 间 、 测 验 
长 度 等 设置 的 是 否 合理 ， 为 测验 设计 提供 一 些 有 用 的 参考 信息 。 
5.5 模拟 研究 结果 

K 3 中 分 别 给 出 了 已 知 项 目 参数 和 未 知 项 目 参 数 时 的 临界 值 ， 呈现 的 是 每 种 
实验 条 件 下 临界 值 的 平均 值 和 标准 差 。 由 于 似 然 比 检验 统计 量 和 Wald 检验 统计 
量 的 经 验 临 界 值 几乎 相同 ， 表 3 只 给 出 了 似 然 比 检验 统计 量 的 临界 值 。 一 方面 ， 
从 表 3 可 以 看 出 ,未 知 项 目 参 数 对 临界 值 的 影响 较 小 。 另 一 方面 ,经 验 临 界 值 随 
着 检验 水 平 有 明显 的 变化 ， 这 与 随 测验 长 度 的 变化 不 同 。 随 着 测验 长 度 的 增加 ， 
临界 值 只 有 轻微 的 增加 。 经 验 临 界 值 在 a = 0.055 0.01 时 的 方差 比较 小 ， 表 明 临 
界 值 还 是 比较 稳定 的 。 对 于 a = 0.001 时 ,方差 比较 大 是 可 以 解释 的 ， 因 为 临界 值 
是 基于 10,000 的 样本 ， 在 分 布 的 末端 ， 统 计量 的 值 应 该 有 更 大 的 波动 。 

Sinharay (2016) 中 的 表 1(p.531) 呈 现 了 各 置信 水 平 下 的 近似 临界 值 ， 当 wa = 
0.05 时 列 出 的 临界 值 从 8.45 到 9.84; 当 a = 0.01 时 ， 临 界 值 从 11.69 到 13.01. 与 
Sinharay (2016) 中 的 近似 临界 值 相 比 ， 表 3 中 的 数据 虽然 差异 不 是 太 大 ， 但 还 是 
有 些 不 同 。 正 如 前 面 所 解释 的 ,近似 临界 值 可 能 更 适合 在 长 测验 中 使 用 ， 并 且 加 
速 作 答 发 生 的 位 置 容易 出 现在 中 后 期 的 位 置 ， 而 不 是 出 现在 测验 早期 。 在 我 们 的 
模拟 中 ,测验 长 度 相 对 都 较 短 ,并 且 加 速 作 答 的 位 置 可 以 出 现在 测验 的 任何 位 置 ， 


E Xi lô: — pil 
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E 
FE 


这 应 该 就 


复 实 验 上 出 现 较 稳定 的 经 验 临界 值 表明 使 用 经 验 临 界 值 是 合适 
3 所 列 的 取 值 分 别 作为 不 同 测 验 长 度 下 aoo5， Qo o, f Qo.001 HJ Ilf 界 值 o 
d 3 似 然 比 检验 统计 量 对 应 的 经 验 临 界 值 的 均值 和 标 ; 


经 验 临 界 值 与 近似 临界 值 出 现 较 小 差异 的 原因 。 在 不 同 测验 长 度 和 重 
的 。 


ZE 


因此 ,根据 表 


测验 长 度 (9.05 (09.01 Co0.001 

40 8.068 (0.08) 11.214 (0.21) 15.702 (0.58) 
已 知 项 目 参 数 60 8.261 (0.07) 11.470 (0.20) 15.885 (0.58) 

80 8.352 (0.09) 11.732 (0.19) 16.247 (0.61) 
—_— 4 40 8247(01D) 11389(030 15824(065) 
未 知 项 目 参数 60 8.353 (0.10) 11.517 (0.36) 15.889 (0.66) 


80 


X 4 AA 5 分别 给 出 了 已 知 和 未 知 项 目 参数 时 各 实验 条 件 下 的 似 然 比 统计 量 
上 ， 两 种 统计 量 在 已 知 项 目 参数 时 的 表现 
F 下 表现 的 变化 趋势 比较 一 致 。 


的 检验 力 和 工 类 错误 率 ， 从 结果 可 以 看 上 
要 略 好 一 些 ， 但 是 它们 在 不 同 实验 条 但 


8.366(0.21) 


5.5.1 已 知 项 目 参 数 的 结果 


所 有 条 件 下 ， 除 了 在 测验 长 度 为 80， 显著 性 水 平 为 0.001 时 ， 其 它 条 件 下 的 


I 类 错误 率 都 只 是 稍 


变 点 的 分 布 ， 以 及 受 加 速 


多 情况 下 都 接近 于 1。 比 如 :测验 长 度 更 长 或 受 加 速 作 


微 大 于 对 应 的 显著 性 水 3 


11.798 (0.34) 


16.456 (0.73) 


Er 


FH 


DE BY, 


CT m^ 


F。 与 此 同时 ， 不 论 测验 的 长 度 ， 
乍 答 影响 的 被 斌 比例， 每 种 条 件 下 的 检验 力 都 入 
响 的 题目 比例 越 高 时 ， 


改 


E ^ 
ry» 1h 


检验 力 相 对 会 更 高 。 整 的 来 说 ， 与 基于 作答 数据 来 说 ， 基 于 作答 时 间 数 据 对 加 速 


作答 的 检验 力 会 高 很 多 ， 比 丸 
速 行 为 的 检验 力 在 0.60 到 0 
相对 更 低 ,， Yu 等 人 (2020) 报 告 的 检验 力也 低 于 本 而 
基于 作答 时 间 检 测 异 常 作答 行为 更 有 优势 。 就 I 类 错误 率 来 说 ,每 种 条 件 下 都 能 


有 很 好 的 控制 ， 都 只 是 稍 


测验 长 度 为 80 时 ， 这 个 
大 ， 意 味 着 改变 点 发 生 的 


微 大 于 对 应 的 显著 性 水 平 。 

绝对 延迟 (4DL) 指 标的 均值 和 标准 差 在 mor = 0.001 时 很 小 。 
延迟 相对 比较 大 ， 最 大 接近 14。 如 图 
立 置 可 以 在 测验 


这 种 情况 下 可 能 很 难 准 确 


1993; Hawkins et al., 2003) 


测 异 常 发 生 的 位 置 。 比 如 : 
1,-,n—jo HPL ARS I 
Sr 


地 检测 到 它 真 实 发 4 


Ne 


H, Shao 等 人 (2016) 报 告 的 基于 作答 得 分 数据 检验 加 
.90， 而 Sinharay (2016) 报 告 的 检验 力 在 多 数 条 件 下 
究 中 的 检验 力 。 这 些 都 说 


明 , 


nvar = 0.04, JE AL 


1 所 示 ， 当 mar 较 
的 任何 位 置 ， 可 以 出 现在 测验 的 末期 ， 


E 的 位 置 。 已 有 的 研究 (Andrews， 
表明 ， 基 于 CPA 的 方法 更 适合 在 中 等 长 度 的 测验 中 检 
Andrews (1993) 建 议 将 搜索 的 范围 限 


制 Aj — jojo + 


间 部 分 的 70%， 这 样 可 以 保证 提高 检测 改变 点 发 生 位 置 的 准确 


F『0.15n。 换 句 话说 ,改变 点 发 生 的 位 置 大 致 等 于 整个 测 


度 。 


对 于 %NF,， 可 以 看 出 , 在 所 有 的 条 件 下 ,在 测验 长 度 为 40 时 ， 有 3.9%-5% 的 


考生 没有 在 预定 的 时 间 内 完成 测验 ; 
考生 没有 在 预定 的 时 间 内 完成 测验 。 当 受 加 速 作 
有 5.9%-8% 的 考生 没有 在 预定 的 时 间 内 完成 测验 。 这 表明 测验 
定 的 时 间 内 完 


FEA 80 的 测验 


时 间 的 设置 是 比较 合理 的 , 受 加 速 作答 影响 的 考生 多 数 还 
成 考试 。 本 研究 中 ,那些 没有 按时 完成 测验 的 考生 会 被 标记 成 异常 


EB 


CT m^ 


EL 4b 


^E Ke 45 


n 
E 


在 测验 长 度 为 60 时 ， 分 别 有 5.9%-7.3% 的 
响 的 被 试 比 例 达到 30%, 长 


考生 。 表 4 中 


的 检验 力 接近 于 1 表明 基于 CPA 的 方法 能 够 检测 出 那些 不 那么 严重 的 加 速 作 答 


考生 ， 
5.5.2 KAM 


即 那些 存在 加 速 作答 行 为 ， 但 
目 参 数 的 结果 

d 5 给 出 了 未 知 项 目 参数 时 ， 两 个 统计 量 
表 5 中 的 各 实验 条 件 下 的 统计 检验 力 仍然 很 高 , 最 低 值 为 0.89， 


= 
FE 


E A [8] 2 fF 
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仍然 在 规定 时 间 内 完成 测验 的 考生 。 


下 的 表现 。 总 体 来 说 ， 


类 错误 率 也 得 


chinaXiv:202205.00105v1 


了 很 好 的 控制 , 但 是 相对 于 表 4 中 的 结果 略 低 ， 说 明 未 知 项 目 参 数 时 两 种 统计 量 
的 表现 仍然 可 靠 ， 只 是 略 有 下 降 。 

表 5 中 的 结果 显示 出 了 和 表 4 中 的 结果 相同 的 趋势 , 即 随 着 测验 长 度 的 增加 ， 
统计 检验 力 略 有 上 升 ,比如 40 题 时 ,各 条 件 下 平均 的 检验 力 为 0.94 (a=0.05), 0.93 
(a=0.01), 0.93 (a=0.001), 60 题 时 ， 各 条 件 下 平均 的 检验 力 为 0.97 (a=0.05), 0.97 
(a=0.01), 0.96 (a20.001). fEaN 0.05 和 0.01 时 ， 各 条 件 下 的 一 类 错误 率 接 近 显 
著 性 水 平 。 当 a 为 0.001 时 ， 由 于 过 于 极端 条 件 下 得 到 的 经 验 临界 值 导 致 各 条 件 
下 的 一 类 错误 率 相 对 较 小 。 关 于 加 速 作 答 位 置 的 估计 ， 可 以 看 出 测验 长 度 的 增加 
会 导致 位 置 估计 值 的 绝对 延迟 (lag) 变 大 ， 测 验 长 度 从 40 增加 到 80 时 ， 平 均 的 
ADL means 3.19 增加 到 5.99。 异 常 位 置 的 中 值 nweqian 和 方差 myar 也 会 影响 其 估计 值 ， 
尤其 是 较 大 的 nyay 会 造成 估计 的 位 置 有 较 大 的 延迟 。 当 myay 为 0.04 时 ， 加 速 作 答 位 
置 绝对 延迟 估计 的 平均 值 和 方差 分 别 为 7.92 和 8.44。 

综合 来 看 ， 本 研究 中 的 实验 条 件 与 Shao 等 人 (2016)，Yu 等 (2020) 相 近 ， 虽 
然 与 表 4 和 表 5 中 的 结果 不 能 直接 比较 ， 但 是 也 还 是 有 一 定 的 指示 作用 。 已 知 项 
Hx, 测验 长 度 为 40 时 , 基于 得 分 数据 的 似 然 比 检验 和 Wald 检验 统计 量 检验 
力 在 不 同 条 件 下 的 最 小 值 和 最 大 值 分 别 为 0.50 和 0.94， 小 于 本 研究 中 的 0.89 和 
0.97。 


d 4 模拟 研究 结果 (已 知 项 目 参数 ) 


测验 Power Type-I-Error 
% T] median Tlvar 96 NF ADL mean ADL sp 
KE 0.05 0.01 0.001 0.05 0.01 0.001 
0.6 0.001 0.98 0.98 0.98 0.053 0.012 0.0013 4.84 0.75 0.68 
0.7 0.001 0.97 0.97 0.97 0.053 0.012 0.0012 4.81 0.96 0.97 
y 0.6 0.04 0.96 0.96 0.95 0.055 0.013 0.0014 4.65 2.72 2.95 
0.7 0.04 0.94 0.94 0.93 0.051 0.012 0.0015 4.80 5.43 6.45 
0.6 0.001 0.98 0.97 0.96 0.054 0.011 0.0015 4.51 0.80 0.71 
40 0.7 0.001 0.96 0.96 0.95 0.052 0.011 0.0016 4.56 1.04 1.15 
a 0.6 0.04 0.96 0.96 0.95 0.052 0.012 0.0014 4.49 4.07 4.95 
0.7 0.04 0.94 0.93 0.93 0.053 0.013 0.0013 4.58 6.68 6.99 
0.6 0.001 0.96 0.96 0.95 0.056 0.012 0.0013 3.90 0.86 0.88 
0.7 0.001 0.94 0.94 0.93 0.052 0.013 0.0012 4.00 1.11 1.08 
d 0.6 0.04 0.95 0.95 0.94 0.054 0.011 0.0013 3.90 5.20 6.12 
0.7 0.04 0.93 0.93 0.93 0.053 0.012 0.0012 4.25 8.08 TTI 
0.6 0.001 1.00 1.00 1.00 0.057 0.011 0.0016 6.78 1.05 1.62 
0.7 0.001 0.98 0.98 0.97 0.056 0.012 0.0015 6.88 1.34 1.39 
i 0.6 0.04 0.99 0.99 0.99 0.055 0.013 0.0014 6.95 5.67 7.55 
0.7 0.04 0.98 0.97 0.96 0.056 0.014 0.0013 724 7.86 9.48 
0.6 0.001 1.00 1.00 1.00 0.058 0.012 0.0014 6.65 1.38 1.75 
60 0.7 0.001 0.98 0.98 0.96 0.057 0.012 0.0016 6.57 1.64 1.82 
" 0.6 0.04 0.99 0.99 0.97 0.055 0.013 0.0017 6.64 7.05 7.67 
0.7 0.04 0.96 0.95 0.95 0.054 0.013 0.0014 6.82 9.12 9.91 
0.6 0.001 1.00 1.00 1.00 0.056 0.011 0.0015 6.19 1.88 1.83 
0.7 0.001 0.99 0.99 0.98 0.054 0.013 0.0013 6.08 2.09 1.92 
i: 0.6 0.04 0.99 0.99 0.99 0.055 0.012 0.0013 5.99 9.21 9.46 
0.7 0.04 0.97 0.96 0.96 0.055 0.011 0.0018 6.25 10.78 10.71 
0.6 0.001 1.00 1.00 1.00 0.067 0.015 0.0025 6.94 1.75 1.96 
0.7 0.001 1.00 1.00 1.00 0.076 0.017 0.0023 748 1.83 2.24 
M 0.6 0.04 1.00 00 1.00 0.071 0.016 0.0024 747 5.99 7.08 
0.7 0.04 1.00 00 0.99 0.074 0.015 0.0021 7.88 10.98 10.32 
0.6 0.001 1.00 00 1.00 0.072 0.016 0.0022 6.42 1.87 1.99 
80 0.7 0.001 1.00 1.00 1.00 0.073 0.017 0.0026 6.46 1.95 2.36 
i 0.6 0.04 1.00 1.00 1.00 0.075 0.015 0.0021 6.71 7.05 7.49 
0.7 0.04 1.00 1.00 0.98 0.074 0.016 0.0023 6.85 9.33 10.38 
0.6 0.001 1.00 1.00 1.00 0.073 0.016 0.0023 6.33 1.76 2.28 
0.7 0.001 1.00 00 1.00 0.074 0.015 0.0025 6.30 2.26 2.49 
a 0.6 0.04 0.99 0.99 0.99 0.077 0.017 0.0022 6.54 12.64 1249 
0.7 0.04 0.98 0.99 0.98 0.073 0.016 0.0024 6.75 13.95 13.71 
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Be 5 模拟 研究 结果 (未 知 项 目 参数 ) 


测验 Power Type-I-Error 
KE is Heese, aar 0.05 0.01 0.001 0.05 0.01 0.001 TEN MEN CES 
0.6 0.001 0.96 0.97 0.97 0.0568 0.0128 — 0.0013 4.99 0.76 0.71 
0.7 0.001 0.95 0.95 0.96 0.0570 0.0131 0.0014 4.83 0.97 1.03 
y 0.6 0.04 0.95 0.93 0.93 0.0638 0.0147 0.0015 4.72 2.73 2.98 
0.7 0.04 0.93 0.94 0.93 0.0513 0.0127 — 0.0015 4.83 5.55 6.49 
0.6 0.001 0.97 0.96 0.95 0.0625 0.0112 — 0.0015 471 0.86 0.76 
40 0.7 0.001 0.96 0.92 0.93 0.0530 00114 — 0.0017 4.57 1.04 1.18 
z 0.6 0.04 0.95 0.93 0.95 0.0531 0.0123 0.0015 4.54 4.11 4.95 
0.7 0.04 0.93 0.91 0.89 0.0584 0.0135 — 0.0013 4.60 6.76 6.99 
0.6 0.001 0.94 0.92 0.93 0.0588 0.0128 — 0.0014 3.96 0.94 0.90 
0.7 0.001 0.93 0.92 0.90 0.0626 0.0149 — 0.0014 4.04 1.14 LH 
d 0.6 0.04 0.93 0.94 0.93 0.0655 0.0111 0.0013 3.97 524 6.13 
0.7 0.04 0.93 0.92 0.92 0.0589 0.0120 — 0.0013 4.26 8.15 7.80 
0.6 0.001 0.99 0.99 0.98 0.0600 0.00116 ^ 0.0016 6.91 1.10 1.64 
0.7 0.001 0.97 0.94 0.95 0.0581 0.0136 — 0.0017 6.93 134 140 
xi 0.6 0.04 0.97 0.96 0.97 0.0589 0.0143 0.0015 7.07 5.69 7.59 
0.7 0.04 0.96 0.96 0.94 0.0590 0.0146 — 0.0014 7.39 7.88 9.51 
0.6 0.001 0.98 0.99 0.98 0.0628 0.0124 0.0015 6.67 141 1.76 
60 0.7 0.001 0.97 0.96 0.95 0.0601 0.0120 — 0.0017 6.59 1.72 1.84 
i 0.6 0.04 0.96 0.99 0.92 0.0600 0.0131 — 0.0018 6.65 7.06 7.70 
0.7 0.04 0.94 0.92 0.95 0.0595 0.0145 — 0.0014 6.86 9.13 9.93 
0.6 0.001 0.98 0.99 0.97 0.0632 00114 ^ 0.0016 6.27 193 1.88 
07 0.001 0.99 0.99 0.97 0.0594 0.0136 — 0.0014 6.12 2.20 1.94 
i: 0.6 0.04 0.97 0.98 0.99 0.0599 0.0135 — 0.0015 6.0 9.22 9.46 
0.7 0.04 0.95 0.92 0.95 0.0585 0.0114 — 0.0019 6.26 10.82 10.74 
0.6 0.001 0.99 0.99 0.97 0.0715 0.0160 0.0026 6.95 1.79 1.96 
0.7 0.001 0.96 0.96 0.97 0.0817 0.0181 — 0.0024 749 1.84 227 
m 0.6 0.04 0.98 0.99 0.96 0.0777 0.0161 — 0.0025 7.19 6.00 7.10 
0.7 0.04 097 097 0.96 0.0742 0.0170 — 0.0023 797 11.07 10.39 
0.6 0.001 0.96 0.98 0.99 0.0776 0.0169 ^ 0.0022 6.46 1.89 2.01 
80 0.7 0.001 0.97 0.96 0.98 0.0745 0.0082 0.0027 6.49 1.98 2.39 
E 0.6 0.04 0.99 0.95 0.94 0.0758 0.0165 ^ 0.0023 6.78 742 7.50 
0.7 0.04 0.98 0.98 0.96 0.0788 0.0175 — 0.0024 7.01 9.36 10.42 
0.6 0.001 0.94 0.99 0.99 0.0757 0.0164 0.0024 6.55 1.78 2.30 
0.7 0.001 0.99 0.99 0.99 0.0745 0.0172 — 0.0026 6.40 232 2.53 
a 0.6 0.04 0.96 0.97 0.99 0.0798 0.0182 0.0023 6.64 12.67 12.52 
0.7 0.04 0.95 0.99 0.97 0.0787 0.0162 0.0027 6.78 14.00 13.71 


6 实证 数据 分 析 


为 了 展示 基于 CPA 的 方法 在 实测 数据 中 的 使 用 ， 我 们 将 前 面 介 绍 的 两 种 方 
法 应 用 到 实证 数据 , 该 数据 是 某 地 区 基础 教育 测量 中 的 四 年 级 的 数学 科目 ,我 们 
选 了 该 试卷 的 一 个 题 本 。 该 题 本 的 测验 时 间 是 45 分 钟 , 包括 36,000 个 考生 在 30 
题 上 的 作答 时 间 。 所 有 的 题目 都 是 多 项 选择 题 ， 在 计算 机 上 完成 。 我 们 首先 对 数 
据 进行 了 整理 ， 将 那些 测试 总 时 间 过 短 ( 小 于 5 分 钟 ) 的 考生 数据 删除 。 同 时 为 了 
考察 CPA 方法 在 检测 更 轻微 加 速 作 答 的 考生 上 的 表现 ， 我 们 也 删除 了 那些 在 测 
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验 末 期 题目 上 的 作答 时 间 为 0 的 考生 。 最 终 有 33,000 名 考生 的 数据 被 保留 下 来 ， 
我 们 从 其 中 随机 抽取 5000 名 考生 的 作答 时 间 数 据 进行 分 析 。 


速度 参数 直方 图 


ll 


T T T 
-0.6 -0.4 -0.2 0.0 


T T 1 
0.2 0.4 0.6 0.8 


图 2 速度 参数 分 布 直方 图 


基于 这 5000 名 考生 的 作答 时 间 数 据 ， 首 先 用 对 数 作 答 时 间 模 型 进行 拟 合 ， 


参数 估计 所 用 到 的 软件 是 R 包 LNIRT (Fox et al., 2007, 2021)。 得 到 各 题目 的 参 


数 wj 和 Bj 以 及 考生 的 速度 参数 tio, Tj AT jo 


5000 名 考生 的 速度 参数 均值 为 0 标 


准 差 为 0.267， 对 应 的 直方 图 如 图 2 所 示 ， 被 试 速度 呈 负 偏 态 分 布 。 


将 得 到 的 参数 用 于 计算 似 然 比 检验 统计 量 和 Wald 检验 统计 量 的 值 。 这 两 个 
统计 量 的 结果 非常 接近 ， 因 此 ， 我 们 这 里 只 给 出 基于 Wald 检验 统计 量 的 结果 。 


JEF RIA 8.068, Æ 5000 名 考生 中 共有 675 
基于 阔 值 11.214, 共 有 361 位 考生 被 检测 出 存 
共有 271 位 考生 被 检测 出 存在 加 速 作答 行为 


位 考生 被 检测 出 存在 加 速 作答 行为 ; 
在 加 速 作答 行为 ;基于 闵 值 15.702. 
。 图 3 显示 了 编号 为 1034 考生 的 作 


管 时间， 这 个 考生 被 标记 为 异常 ， 以 及 其 期 望 作答 时 间 、 样 本 中 异常 考生 的 平均 


作答 时 间 和 样本 中 所 有 考生 的 平均 作 管 时 间 


。 其 中 蓝 色 线 表 示 的 是 1034 号 考生 


各 题目 的 作答 时 间 , 红色 线 表 示 的 是 测验 中 各 题目 的 平均 作答 时 间 , 绿色 线 表 示 
的 是 该 考生 的 期 望 作答 时 间 ， 可 以 看 出 该 考生 的 作答 速度 在 前 面 18 题 是 略 高 于 
平均 速度 的 , 但 是 在 这 之 后 的 题目 上 的 作答 速度 是 低 于 平均 速度 的 。 灰 色 线 表示 
的 是 所 有 识别 出 的 “异常 ”考生 的 平均 作 管 时 间 。 从 图 中 可 以 看 出 1034 号 考生 


在 最 后 12 道 题 的 作答 时 间 都 不 超过 30, 有 几 题 在 10 秒 左 右 ， 和 前 面 的 18 3H 
题目 相 比 作答 时 间 有 很 大 的 下 降 。 另 外 从 图 上 可 以 看 出 ， 无 论 是 1034 号 考生 还 
是 全 体 考生 , 测验 后 期 题目 的 平均 作答 时 间 有 下 降 的 趋势 , 说 明 考 生 接 近 考 试 结 


束 时 的 题目 倾向 于 花 更 少 的 时 间 完 成 ， 并且 所 有 “异常 ”考生 的 平均 作答 时 间 在 


测验 后 期 下 降 的 幅度 更 大 。 
所 有 被 试 在 每 道 题目 (除了 最 后 的 一 道 题 


) 上 的 平均 作答 时 间 为 30-65 W, m 


后 的 一 道 题 的 平均 作答 时 间接 近 26 秒 。 从 图 中 可 以 看 出 该 考生 在 测验 前 期 各 题 
的 作答 时 间 是 接近 或 大 于 平均 作答 时 间 的 ， 但 是 在 18 题 之 后 ， 各 题 的 作答 时 间 


都 小 于 平均 作答 时 间 , 与 期 望 作答 时 间 的 差 
的 考生 标记 为 异常 考生 是 合适 的 。 


E 明显 变 大 了 。 这 表明 将 编号 为 1034 
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一 ~ 全体 考生 的 平均 项 目 作答 时 间 
时 常 ' 者 生 1034 的 期 望 项 目 作答 时 间 
所 有 ' 蜡 常 ' 考 生 的 平均 项 目 作 答 时 间 


图 3 “异常 ”考生 1034 的 各 项 目的 作答 时 间 、 期 望 作答 时 间 ， 全 体 考 生平 均 项 目 作 管 时 
间 ， 所 有 异常 考生 的 平均 项 目 作 答 时 间 


6 结论 和 讨论 


本 文 基于 CPA 的 两 种 检验 统计 量 ， 利 用 作答 时 间 数 据 来 检测 具有 加 速 作答 
行为 的 考生 。 通 过 模拟 研究 和 实证 数据 分 析 对 CPA 方法 的 表现 进行 了 评价 ， 结 
果 显 示 两 种 检验 统计 量 都 具有 非常 高 的 检验 力 , 并 且 能 够 很 好 的 控制 I 类 错误 率 ， 
本 研究 表明 基于 作答 时 间 数 据 在 异常 作答 行为 检测 上 具有 很 高 的 检验 力 。 实 际 上 ， 
基于 得 分 数据 和 作答 时 间 数 据 在 检测 异常 作答 行为 时 各 有 其 特点 , 将 它们 结合 起 
来 则 有 可 能 进一步 对 考生 的 异常 作答 行为 的 类 型 进行 分 析 和 探索 。 

本 研究 的 结果 进一步 表明 基于 作答 时 间 数 据 的 CPA 方法 具有 很 好 的 研究 前 景 ， 
而 且 它 在 实际 应 用 中 也 具有 可 行 性 。 首 先 , 本 研究 虽然 采用 对 数 作 答 时 间 模 型 来 
拟 合 作答 时 间 数 据 ， 但 是 基于 CPA 的 方法 可 以 扩展 到 其 它 作 答 时 间 模 型 比如 4 
参数 作答 时 间 模 型 (Wang & Hanson, 2005) 或 其 它 作 答 时 间 模 型 (Wang et al., 
2015) 下 使 有 用。 其次， 无论 项 目 参 数 是 否 已 知 ， 本 研究 表 3 中 的 经 验 临界 值 在 不 
同 测验 长 度 下 相当 接近 , 表明 可 以 在 不 同 长 度 的 测验 使 用 相同 的 临界 值 ， 这样 使 
得 方法 的 应 用 更 加 简单 和 方便 ,比如 , 当 删 除 测验 中 的 某 些 题 或 增加 一 些 题目 时 ， 
没有 必要 再 重新 确定 临界 值 。 

将 本 研究 中 所 涉及 到 的 方法 同时 应 用 得 分 数据 和 作答 时 间 数 据 上 值得 研究 。 一 方面 , 与 
得 分 数据 相 比 ， 基 于 作答 时 间 的 连续 数据 能 够 提供 更 丰富 的 信息 ,作答 时 间 数 据 在 异常 作答 
行为 的 检测 上 有 优势 ; 另 一 方面 ,得 分 数据 有 助 于 判断 异常 作答 行为 的 类 型 (Wang et al,. 2018). 
因此 ， 结 合 得 分 数据 ， 尤 其 是 多 级 计 分 的 得 分 数据 ( 陈 青 等 , 2010; 程 小 杨 等 , 2012) 与 作答 
时 间 数 据 检测 异常 作答 行为 和 判断 异常 行为 类 型 值得 进一步 探索 和 尝试 。 本 研究 表明 ， 不 
同 测验 长 度 可 以 使 用 相同 的 临界 值 ， 因 此， 本 研究 中 的 方法 应 该 可 以 很 容易 推 让 
到 自 适 应 测验 CAT 或 多 阶段 自 适应 测验 中 (EE 等 ,2018; 能 建华 等 ,2018)。 需 要 
注意 的 是 ， 加 速 作答 只 是 一 种 较 常见 的 异常 作答 行为 , 本 研究 中 的 方法 可 以 应 用 
到 检测 其 它 类 型 的 异常 作答 行为 中 , 比如 应 用 到 检测 调查 数据 中 的 低 作 答 动 机 考 
生 等 。 

最 后 , 基于 CPA 的 检测 方法 在 多 维 测验 中 也 是 具有 可 行 性 和 价值 的 。 一 方面 
现在 多 维 测 验 逐 渐 增 多 , 例如 在 基于 英语 语言 的 数学 测验 中 , 测验 同时 考察 英语 
和 数学 两 个 维度 的 能 力 ( 张 龙 飞 等 , 2020)。 另 一 方法 ， 多 维 RT 模型 的 数量 也 逐 
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渐 增 多 ,例如 詹 沛 达 等 人 (2020) 开 发 了 多 维 对 数 正 态 作答 时 间 模 型 。 其 研究 不 但 
表明 了 在 多 维 测验 中 ,潜在 加 工 速 度 具 有 与 潜在 能 力 相 匹配 的 多 维 结构 ,还 在 模 
拟 研究 中 实现 了 对 被 试 的 潜在 加 工 速 度 的 估计 。 这 说 明 将 CRA 方法 应 用 在 多 维 
测验 中 也 是 可 以 考虑 和 尝试 的 。 
除了 上 文 所 说 的 ， 本 研究 还 有 实际 应 用 价值 。 开 发 不 同 的 方法 用 于 检测 考生 
的 异常 作答 行为 是 测验 领域 重要 的 质量 控制 解决 方案 ,这 个 问题 一 直 得 不 到 很 好 
的 解决 主要 是 由 于 题目 参数 和 考生 能 力 参 数 估计 的 不 准确 ,等 值 所 带 来 的 偏差 以 
及 对 考生 作答 行为 的 不 正确 解释 所 造成 的 。 比 如 , 一 些 终 结 性 测验 的 长 度 可 能 会 
很 长 ， 包 含 的 内 容 也 很 多 ， 这 时 需要 综合 进行 考虑 以 确定 合适 的 测验 长 度 ， 让 大 
部 分 的 考生 都 有 足够 的 时 间 完 成 测验 (van der Linden, 2011; Patton, 2015; Patton 
etal.,2019)。 在 高 风险 测验 中 ， 考 生 在 接近 考试 结束 时 间 时 会 尽力 完成 所 有 的 题 
目 ， 对 接近 结束 时 间 的 题目 采用 快速 猜测 策略 等 。 在 这 种 情况 下 ， 没 有 完成 测验 
中 所 有 题目 的 考生 比例 可 能 会 较 少 , 因此 需要 有 合适 的 方法 来 探查 加 速 作 答 行 为 
的 流行 程度 。 对 于 新 开发 的 测验 系统 ,建议 能 够 记录 下 每 位 考生 在 每 个 题目 上 的 
作答 时 间 ， 这 可 以 为 之 后 使 用 CPA 方法 来 探测 异常 作答 行为 打下 基础 。 

本 研究 虽然 取得 了 一 些 有 意义 的 结果 ， 但 还 存在 一 些 不 足 之 处 。 首 先 ， 一 般 
考试 中 通常 记录 的 是 考生 的 得 分 数据 ,以往 也 有 研究 基于 得 分 数据 检测 加 速 作答 ， 
本 研究 中 采用 的 是 作答 时 间 数 据 。 当 基于 作答 时 间 数 据 与 基于 得 分 数据 的 检测 结 
果 出 现 矛 盾 ， 仅 从 统计 分 析 结 果 不 容 易 判断 哪 种 数据 的 检测 结果 是 准确 的 时 候 ， 
我 们 需要 引入 更 多 的 信息 (包括 对 测验 内 容 的 具体 分 析 ， 其 它 统计 量 的 分 析 ， 甚 
至 是 考场 中 的 摄像 记录 和 历史 数据 等 ) 来 谨慎 地 对 这 种 数据 做 出 综合 评估 (Wang 
et al.，2018)。 其 次 ， 本 研究 应 用 的 CPA 方法 需要 假设 改变 点 位 置 前 后 的 作答 概 
率 模 型 是 已 知 的 。 但 是 在 实际 应 用 中 , 改变 点 位 置 前 后 的 概率 结构 可 能 是 未 知 的 。 
未 来 需要 进一步 探索 不 依赖 于 模型 的 改变 点 检测 方法 。 另 外 ， 当 CPA 方法 检测 
到 了 改变 点 时 ， 我 们 只 能 推断 作答 数据 发 生 改 变 的 可 能 原因 。 例 如 ， 低 作答 动机 
和 加 速 作答 都 可 能 会 导致 作答 时 间 异 常 减少 , 本 研究 中 的 方法 并 不 能 对 它们 加 以 
区 分 ， 也 就 是 说 ，CPA 方法 不 能 确定 数据 出 现 异常 的 原因 。 在 这 一 点 上 我 们 需要 
结合 其 它 的 信息 比如 利用 专家 的 领域 知识 来 确定 异常 原因 。 未 来 还 可 结合 作答 数 
据 和 作答 时 间 数 据 ， 进 一 步 开 发 基于 CPA 的 方法 来 检测 不 同 的 异常 作答 行为 ， 
充分 发 挥 作答 时 间 数 据 在 检测 异常 作答 行为 上 高 检验 力 的 优势 ,而 且 对 于 一 些 高 
风险 测验 ， 结 合作 答 数 据 与 作答 时 间 数 据 共 同 做 出 推断 会 更 加 的 合适 。 最 后 , H 
前 使 用 CPA 进行 检测 的 研究 大 部 分 是 基于 大 样本 , 未 来 可 以 尝试 将 CPA 方法 # 
广 到 小 样本 的 情况 中 检测 异常 作答 ， 观 察 CPA 方法 的 检测 效果 。 
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Abstract 

In recent years, response time has received a rapidly growing amount of attention in 
psychometric research, likely due to the increasing availability of (item-level) response time data 
through computer-based testing and online survey data collection. Compared to the conventional 
item response data that are often dichotomous or polytomous, the response time is continuous and 
can provide much more information. Aberrant response behaviors are frequently encountered 
during testing. It could cause various negative effects. Change point analysis (CPA) is a well- 
established statistical process control method to detect changes in a sequence, and it has provided 
testing professionals a new lens through to understand test-taking behavior at both the examinee 
and item levels. 

In this paper, we took test speededness as an example to illustrate how the CPA method can be 
used to detect aberrant behavior using item response time data. Response time under speededness 
was simulated using the gradual-change log-normal model for response time. Two CPA-based test 
statistics, the Likelihood Ratio Test and Wald Test, were used to detect aberrant response behaviors. 
The critical values were obtained through Monte Carlo simulations and compared with the 
approximate critical values in a previous study. Based on the chosen critical values, we examined 
the performance of the likelihood ratio test and Wald test in detecting speeded responses, 
specifically in terms of power and empirical Type-I error. 

On the one hand, the critical values are almost identical for Wald and the likelihood ratio test. 
They vary substantially at different nominal « levels, but do not differ much across different test 
lengths. On the other hand, compared to approximate critical values, the critical values are not too 
far away from them but are different. That may be because the approximate critical values are 
suitable for situations where the change point appears in the middle of the test. Results indicate that 
the proposed method is much more powerful based on the critical values than conventional methods 
that use item response data. The power was close to 1 for most of the conditions while keeping the 
type-I error rate well-controlled. Real data analysis also demonstrates the performance of the 
method. 

This study uses CPA with response time data and offers a very promising approach to detecting 
aberrant response behavior. Through the simulation study, we demonstrated that it is possible to use 
fixed critical values in different test lengths, which makes the application of the method 
straightforward. It also means that it is unnecessary to reconduct the simulation to update critical 
values when small changes occur in the test. CPA is very flexible. This study assumed that the log- 
normal model fits the response time data, but the method is not bounded by that assumption. 
Keywords: change point analysis, aberrant response behaviors, response time, test speededness, 
statistical process control 
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